Think More Step論文
論文情報
タイトル:The Impact of Reasoning Step Length on Large Language Models
発行日:2024年1月
著者:Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
所属:Northwestern University
論文を読んで感じたこと
誤った途中の推論よりも、長さの方が大事
途中計算を間違えたとしても、長い推論があれば精度が出るってことか...
Figure5の圧縮とは、何をやったんだろう?
Figure6見ると、Stepを増やしすぎると、Accuracyが下がるのはなぜ?
概要
CoT (Chain-of-Thought)は、大規模言語モデル(LLMs)の推論能力を向上させる上で重要です。しかし、CoTの効果とプロンプト内の推論ステップの長さとの相関については、まだ十分に解明されていません。これを明らかにするために、我々はいくつかの実証実験を行いました。具体的には、CoTデモンストレーション内の推論ステップを拡張および圧縮する実験を設計し、他の全ての要因を一定に保ちました。以下が主な発見です。まず、プロンプト内の推論ステップを長くすることで、新しい情報をプロンプトに加えなくても、LLMsの推論能力が複数のデータセットにわたって大幅に向上することが示されました。一方、重要な情報を維持しつつ推論ステップを短くすると、モデルの推論能力が大幅に低下することもわかりました。この発見は、CoTプロンプトのステップ数の重要性を強調し、複雑な問題解決シナリオでLLMsの潜在能力をより効果的に活用するための実用的なガイダンスを提供します。第二に、CoTのパフォーマンスとデモンストレーションで使用される理由の関係についても調査しました。驚くべきことに、推論の必要な長さを維持する場合、間違った理由でも好ましい結果をもたらすことが示されました。第三に、推論ステップを増やすことの利点はタスク依存であることが観察されました。単純なタスクでは少ないステップで済みますが、複雑なタスクでは長い推論シーケンスから大きな利益を得ることができます。」 はじめに
今日、大規模言語モデル(LLMs)とそれらの進んだプロンプト戦略の出現は、特に古典的な自然言語処理(NLP)タスクにおいて、顕著な進歩をもたらしています。これらの中での主要な革新は、多段階問題解決においてその効果が認められている思考の連鎖(CoT (Chain-of-Thought))プロンプト技術です。この技術は、人間の連続的な推論を反映し、クロスドメイン、長さ一般化、クロス言語タスクを含む様々な挑戦において顕著な効果を示しています。CoTアプローチは、その論理的なステップバイステップの方法論を通じて、複雑な問題解決シナリオにおいて重要な解釈可能性を提供します。興味深いことにWangらは、誤ったが一貫性のある理由付けでも推論パフォーマンスを向上させることができることを発見し、論理的な連続性の価値を強調しました。これを受けて、Fuらは複雑さに基づくプロンプトを導入し、精度を大幅に向上させ、新たなベンチマークを設定しました。この研究は、推論ステップの長さと結論の正確性との関係をさらに探求し、NLPにおける効果的な問題解決の理解を深めています。 その有望な結果にもかかわらず、研究コミュニティはまだ、CoTおよびその変種が効果的に機能する方法や理由についての正確なメカニズムについての合意に達していません。この知識のギャップは、CoTのパフォーマンスを向上させる方法がまだ探求の段階にあり、試行錯誤に大きく依存していることを意味しています。CoTの効果を向上させるための確立された体系的な方法論がまだ不足しており、研究者は推測と実験に頼るしかありません。この状況は、分野における重要な機会を強調しています:CoTの内部動作のより深く、より構造化された理解を開発することです。このような進歩は、現在のプロセスを解明するだけでなく、さまざまな複雑なNLPタスクにおけるこの技術のより信頼性が高く効率的な応用への道を開くことになります。
https://scrapbox.io/files/65a4d7161b57fe00240bbd56.png
この研究では、推論ステップがCoTを機能させるプロンプトの最も重要な要素であるかどうかを探ることを目指しています(Figure1)。特に、新しい推論ステップを取り入れる際には、追加の知識が導入されないように厳密に制御しました。Zero-Shot実験では、初期のプロンプトを「ステップバイステップで考えましょう」から「ステップバイステップで考えましょう、より多くのステップを考える必要があります」に変更しました。そして、Few-Shot設定では、CoTデモンストレーション内の推論ステップを拡張する実験を設計し、他の全ての要因を一定に保ちました。我々の最初の実験では、私たちの戦略的介入を使用して、ゼロショットおよびフューショットパフォーマンスの改善を評価しました(Zhangら、2022年)。その後、異なるステップ長にわたるさまざまな方法の精度を評価しました。次に、我々の戦略がGPT-3.5やGPT-4などの異なるLLMに対してどのように効果的であるかを比較するための調査を拡大しました。我々の発見は、一定の限界内で、推論チェーンの長さとLLMの能力との間に顕著な相関関係があることを明らかにしました。興味深いことに、推論チェーンに誤解を招く情報を導入したときも、パフォーマンスは依然として改善を示しました。これは重要な洞察を浮き彫りにしました:重要な要因は、その正確さではなく、思考チェーンの長さであるようです。我々は以下の主要な発見を持ち、この知見がコミュニティがCoTのパフォーマンスをよりよく改善するのに役立つことを願っています。 フューショットCoTにおいては、ステップ数と精度の間に直接的な線形関係があります。これは、複雑な推論におけるCoTプロンプトを最適化するための定量的なアプローチを提供します。具体的には、プロンプト内の推論ステップを長くすることで、LLMの推論能力が複数のデータセットで大幅に向上します。逆に、重要な情報を保持しながら推論ステップを短縮すると、モデルの推論能力が大幅に低下します。
誤った理由付けでも、推論の必要な長さを維持すれば有利な結果をもたらすことができます。例えば、数学の問題などのタスクでは、中間数値のエラーはそのプロセス指向の性質により影響が少ないです。
推論ステップを増やすことの利点はタスク依存です:単純なタスクでは少ないステップで済みますが、より複雑なタスクでは長い推論シーケンスから大きな利益を得ます。
ゼロショットCoTでの推論ステップを増やすことも、LLMの精度を大幅に向上させます。このアプローチを検証するために、初期のプロンプトを「ステップバイステップで考えましょう」から「ステップバイステップで考えましょう、より多くのステップを考える必要があります」に変更しました。この変更により、特に数学の問題を含むデータセットで、LLMの推論能力が顕著に向上しました。
2 関連研究
このセクションでは、私たちの研究に最も関連性のある2つの文献を要約します。
2.1 CoTプロンプト
ブラウンらは、彼らの画期的な研究で、大規模言語モデルが文脈内学習(ICL)を活用する能力を発見しました。ICL戦略は、入力-出力の例を直接プロンプトに織り込むことを含み、特定のタスクに特化したファインチューニングが不要な大規模言語モデルを、即座に使用可能な形で提供します。しかし、このエンドツーエンドの方法論は、複雑な推論課題に直面する際にしばしば失敗します。 これを受けて、Weiらは、一連の論理的推論ステップをモデルのデモに統合すること、つまりCoTプロンプトを用いることで、大規模言語モデルの推論能力を大幅に洗練させることができることを実証しました。CoTプロンプトは、モデルが微妙な質問とその根底にある論理を深く理解するだけでなく、推論ステップの明確な連続をもたらします。Zhangらの「Auto-CoT」手法は、AI推論の分野における重要な進歩を表しています。CoTプロセスを自動化することにより、より効果的に複雑な問題に対処します。その後、Yaoらは「思考の木」(ToT (Tree of Thoughts))フレームワークを導入しました。これは言語モデル推論における思考の連鎖アプローチの進化形です。ToTは、言語モデルが問題解決の中間ステップとして異なるテキスト単位を探索することを可能にします。このフレームワークは、複数の推論経路を検討することによって、より慎重な意思決定を可能にします。 2.2 CoTの分析に関する予備的な研究
AIにおけるCoT推論の開発と理解は時間とともに進化し、様々な研究者からの重要な貢献がありました。初期には、マダーンとヤズダンバクシュが、プロンプトをシンボル、パターン、テキストに分解し、反事実的なプロンプトを通じてCoTの効果を調査しました。この研究は、プロンプトの異なる構成要素がAI推論にどのように影響を与えるかを理解するための基盤を築きました。さらに、いくつかの研究がこの理解を深めました。例えば、唐らは、CoT推論における意味論の役割を調査し、事前トレーニングからの意味的知識への依存と記号的推論における課題を明らかにしました。同時期に、王らはCoTにおけるデモンストレーション選択の影響に焦点を当て、推論チェーンの正確性よりも、推論の関連性と順序の方がより重要であることを明らかにしました。
最近では、CoTのメカニクスについての理論的な視点も登場し、より深い洞察を提供しています。例えば、李らはCoTを多段階の組み合わせ関数として概念化し、複雑な質問に対する文脈内学習を簡素化する役割を示しました。また、馮らは、計算タスクやCoTフレームワーク内の動的計画に対して、固定サイズのトランスフォーマーが十分であることを理論的に実証しました。
この分野でのさらなる貢献には、メリルとサバールワルの観察も含まれます。彼らは、CoTが推論能力を向上させることができ、その改善は中間ステップの数とともに増加することを観察しました。さらに、ウーらは、質問の変化や摂動に対するCoTのロバスト性を評価するために、勾配ベースの特徴帰属法を用いました。
3 解析方法
このセクションでは、推論ステップと思考の連鎖(CoT)プロンプトのパフォーマンスとの関係を調べるための解析を提案します。私たちの仮説の中心は、推論ステップがCoTプロンプトの最も重要な要素であり、言語モデルが応答を生成する際により論理的な推論を適用することを可能にするということです。これをテストするために、他の全ての要因を一定に保ちながら、CoTデモンストレーション内の推論ステップを拡張および圧縮する実験を設計しました。具体的には、新しい推論内容を導入することなく、また既存の推論内容を削除することなく、推論ステップの数だけを体系的に変化させます。次のセクションでは、ゼロショットとフューショットのCoTプロンプトの両方を評価します。全体的な実験手順はFigure 2に示されています。
https://scrapbox.io/files/65a4dbcffb42e100250dd3a1.png
この制御された解析を通じて、CoTがLLMが論理的に正しい応答を生成する能力にどのように影響するかを明らかにすることを目指します。
3.1 予備
Zero-Shot CoTは、思考の連鎖推論のためのテンプレートベースのゼロショットプロンプトです。主なアイデアは、「ステップバイステップで考えましょう」またはその他類似のテキストを追加することです。ゼロショットCoTに比べて、フューショットCoTは思考の連鎖推論のためのプロンプトにより多くの例を提供します。その中には、Manual-CoT、Auto-CoTなどの人気の方法があります。 Manual-CoT:Manual-CoTプロンプトは、質問とそれに至る推論チェーンから成るいくつかの手動で設計されたデモンストレーションに依存し、言語モデルの推論パフォーマンスを向上させます。
Auto-CoT:Auto-CoTは、手動デモンストレーションの設計の必要性を排除し、テストの質問をクラスタリングして多様な例を選択し、言語モデル自身のゼロショット推論能力を用いて推論チェーンを自動的に構築することで、デモンストレーションを自動的に構築します。
3.2 ゼロショットCoTの解析
ゼロショットシナリオでは、初期のプロンプトを「ステップバイステップで考えましょう」から「ステップバイステップで考えましょう、より多くのステップを考える必要があります」に変更しました。この変更は、フューショットCoTの文脈とは異なり、追加の推論ステップを例に導入することができないために実施されました。初期プロンプトを変更することで、LLMにより広範な思考に従事するよう促します。このアプローチは重要です。なぜなら、それはフューショットCoTのシナリオで典型的な段階的なトレーニングや追加の例駆動型の調整が不要であり、モデルの精度を向上させるからです。この洗練された戦略は、より包括的で詳細な推論プロセスを保証し、ゼロショット設定におけるモデルのパフォーマンスを大幅に向上させます。
3.3 フューショットCoTの解析
このセクションでは、CoTの理由付けの中で推論ステップを追加または圧縮することを目指します。目的は、推論構造の変化がLLMの意思決定にどのように影響するかを調べることです。推論の拡張中には、新しいタスク関連情報を導入しないようにします。これにより、研究の下で唯一の変数として推論ステップを隔離します。
この目的のために、異なるLLMアプリケーションに対して推論ステップを拡張するための以下の戦略を調査する予定です。問題について考える際の通常のパターンがあります。例えば、より深い理解を得るために何度も質問を繰り返す、記憶の負担を軽減するために数学方程式を作成する、トピックを理解するのを助けるために質問内の単語の意味を分析する、トピックの説明を簡略化するために現状を要約するなどです。ゼロショットCoTとオートCoTのインスピレーションに基づいて、CoTのプロセスが標準化されたパターンになり、プロンプトセクションでのCoT思考の方向に制限を加えることによって正しい結果に導くことを期待しています。私たちのアプローチの核心は、人間の思考プロセスをシミュレートし、思考の連鎖を再形成することです。付録の表6に一般的なプロンプト戦略を5つ示します。
単語について考える
この戦略は、モデルに単語を解釈させ、知識ベースを再構築させることです。通常、単語には複数の異なる意味があり、これによりモデルは箱から出て問題の中の単語を生成された解釈に基づいて再解釈するようになります。このプロセスは新しい情報を導入しません。プロンプトでは、モデルが考えている単語の例を与え、モデルは新しい質問に基づいてこのプロセスのための単語を自動的に選択します。
https://scrapbox.io/files/65a4de381be0500023e982e4.png
質問をもう一度読む
他のテキストの思考の連鎖への干渉を減らすために質問を繰り返し読む。要するに、モデルに質問を覚えさせます。
https://scrapbox.io/files/65a4de43b704f200258d8560.png
状態を繰り返す
繰り返し読むことと同様に、長い推論チェーンの後に現状の小さな要約を含め、モデルが記憶を簡素化し、CoT内の他のテキストの干渉を減らすことを目指します。
https://scrapbox.io/files/65a4de512c2f34002417eb17.png
自己検証
人間は質問に答えるときに、自分の答えが正しいかどうかを確認します。したがって、モデルが答えを得る前に、いくつかの基本的な情報に基づいて答えが妥当かどうかを判断する自己検証プロセスを追加します。
https://scrapbox.io/files/65a4de6479dc240024a62934.png
方程式を作る
数学の問題においては、方程式を作ることは、人間が記憶を要約し簡素化するのを助けます。また、未知数xの仮定が必要な問題においては、方程式を立てることは必須のプロセスです。私たちはこのプロセスをシミュレートし、モデルに数学の問題で方程式を作るように試みさせます。
https://scrapbox.io/files/65a4de75ebb16c0024339ba4.png
全体的に、私たちのプロンプト戦略はすべて、モデルの応答に対応するパターンを見せました。セクション4では、私たちの戦略の効果を検証するために定量的な分析を行います。
4 実験結果
我々は以下の研究質問に答えるための実験を行います:
RO1: CoTパフォーマンスとデモンストレーション内の合理的な推論ステップとの関係は何ですか?(セクション4.2)
RO2: 推論ステップがLLMのパフォーマンスに影響を与える唯一の要因であることを確認できますか?(セクション4.3)
RO3: フューショットのデモンストレーションで推論ステップを圧縮するとLLMのパフォーマンスが損なわれますか?(セクション4.4)
RO4: スケーリング則、つまり必要な推論ステップがLLMのサイズに関連しているかを観察できますか?(セクション4.5) RO5: 論拠内の質問がLLMの推論能力にどのような影響を与えるか?(セクション4.6)
4.1 実験セットアップ
このセクションでは、一般的な実験セットアップを紹介します。
プロンプト
セクション3の解析方法で提案されたプロセスパイプラインを示しました。実験部分は同じアプローチに従います。
ベースライン
我々は、以下の4つのベースライン方法と比較を行います:ゼロショット、ゼロショットCoT、マニュアルCoT、オートCoT。結果は表2にあります。
https://scrapbox.io/files/65a4dfc8f5a67f0024a4b52f.png
評価指標
Accuracyは、モデルの分類タスクにおける能力を評価するために使用され、多選択テストやイエス/ノーテストで一般的に使用されます:Accuracy = Ncorrect/Ntotal. 実装の詳細:
推論ステップの追加
このプロセスではGPT-4を使用して、「ステップバイステップで考えましょう」というゼロショットCoTプロンプトのデモを変更し、セクション3で述べた5つの推論ステップを含むようにします。これにより、デモに含まれるステップの数と種類を定義することができます。次に、このデモをプロンプトとして入力します。このアプローチで以下の実験を行いました。
推論ステップの圧縮
表現実験では、フューショットCoT内の推論推論チェーンに対する圧縮攻撃を実行することに焦点を当てました。このプロセスでは、2つの連続する文をランダムに選択し、GPT-4を使用して効果的にそれらを統合します。次に、「次の2つの文を情報を失わず、できるだけ簡潔に圧縮してください」というプロンプトを入力します。この方法は、推論チェーンに対するターゲット圧縮を実装するために設計されました。
回答のクリーニング
我々はゼロショットCoTで提案された構造に従い、最終回答を選択します。モデルの応答出力が得られた後、この構造は最初に答えの形式を満たす回答の一部だけを選択します。
4.2 ステップと精度の関係
表2は、GPT-3.5-turbo-1106を使用して、3つのカテゴリーの推論タスクにおける8つのデータセットの精度を比較しています。すべての結果は3回のランダムな実行で平均されています。私たちのSOTA(最先端)結果は、各データセットに対する最適なパフォーマンスステップからの実験結果に基づいています。私たちのゼロショットCoTはセクション2.1に基づいており、推論ステップの追加(マニュアルCoT)と推論ステップの追加(オートCoT)はセクション2.2に基づいています。 CoTデモンストレーションの理由付けにおけるステップの増加による精度の向上を定量化することが可能になったため、CoTパフォーマンスに対する合理的な推論ステップの関係は何かというRO1に答えるための実験を行いました。この実験はGPT-3.5-turbo-1106で完了し、結果は図3に示されています。我々は、効果的なCoTプロセス、つまり追加の思考プロセスの最大6ステップの追加により、すべてのデータセットで大規模言語モデルの推論能力が向上することを発見しました。言い換えると、精度とCoTの複雑さの間にある種の線形関係があることがわかりました。
https://scrapbox.io/files/65a4e7ad3826aa0024418efe.png
4.3 誤った回答を含むプロンプトの効果
RO2に答えるために:推論ステップはLLMのパフォーマンスに影響を与える唯一の要因ですか?我々は以下の試みを行いました。プロンプト内のステップを誤った回答に変更して、思考の連鎖に影響があるかどうかを確認します。したがって、この実験では、すべてのプロンプトを一つのエラーを含むように変更します。具体的な例は表3を確認してください。
https://scrapbox.io/files/65a4e8022f644400233b6884.png
算数タイプの質問の場合、プロンプトの結果の1つに逸脱があっても、推論プロセス内の思考の連鎖への影響は最小限ですので、大規模言語モデルは単一の計算よりもプロンプト内の思考の連鎖のパターンをより多く学習すると考えられます。Coinデータセットのような論理問題の場合、プロンプトの結果の1つに逸脱があると、全体の思考の連鎖が断片化することがよくあります。この実験はGPT-3.5-turbo-1106で完了し、前の実験から導き出された各データセットに対する最適なステップ数に基づいてパフォーマンスを保証しました。結果は図4に示されています。
https://scrapbox.io/files/65a4e8a3d96e890023d9c777.png
4.4 推論ステップの圧縮
前のセクションでは、推論ステップを増やすことでLLMの推論精度が向上することを示しました。このセクションでは、RO3に答えることを目指しています:フューショットデモンストレーションで推論ステップを圧縮すると、LLMのパフォーマンスが損なわれますか?この目的のために、私たちは推論ステップの圧縮実験を行い、ベースラインの自動思考連鎖(オートCoT)とフューショット思考連鎖(フューショットCoT)の両方の例で推論プロセスを凝縮するために実験セットアップで概説された技術を用いました。この目的は、推論ステップの数を減らすことです。結果はFigure 5に示されます。その結果、パフォーマンスの顕著な低下が明らかになり、それは事実上ゼロショット方法によって達成されたレベルに退行しました。これは、CoTの理由付け推論ステップを増やすことがCoTのパフォーマンスを向上させること、そしてその逆も示唆しています。
https://scrapbox.io/files/65a4e94564da0b0024a2a133.png
4.5 異なるサイズのモデルにおけるパフォーマンス
この章では、RO4に答えることを目的としています:スケーリング則、つまり必要な推論ステップがLLMのサイズに関連しているかどうかを観察できますか?私たちは、text-davinci-002、GPT-3.5-turbo-1106、およびGPT-4を含むさまざまなモデルで使用される推論ステップの平均数を調査しました。GSM8Kのデータセットで各モデルの平均推論ステップを計算し、ピークパフォーマンスに達するための実験を行いました。このデータセットは、私たちの8つのデータセットの中でtext-davinci-002、GPT-3.5-turbo-1106、およびGPT-4との最大のパフォーマンス差があります。最初のパフォーマンスが最悪のモデルであるtext-davinci-002に対して、私たちの戦略は最大のブースティング効果を持っています。最初のパフォーマンスが最高のモデルであるGPT-4は、私たちの戦略に対して最も高い耐性を持っています(パフォーマンスの低下はありません)。結果はFigure 6に示されています。 https://scrapbox.io/files/65a4eb498a553a002bd38f75.png
4.6 CoT例における質問の影響
私たちのケーススタディでは、RO5に答えることを目指しています:LLMの推論能力に対する根拠問題の影響とは?私たちは、CoTの推論を変更することがCoTのパフォーマンスに影響を与えるかどうかを探求したいと考えています。私たちは主にパフォーマンスに対する推論ステップの影響を研究しているため、質問がパフォーマンスに影響を与えないことを確認する必要があります。そこで、2つのデータセットと2つのCoT方法(オートCoTおよびフューショットCoT)をこの調査のために選びました:MultiArithおよびGSM8KをGPT-3.5-turbo-1106で実施しました。私たちの実験アプローチには、これらの数学データセット内のサンプル質問を意図的に変更することが含まれます。例えば、表4の質問の内容を変化させるようなことです。注目すべきことに、初期の観察では、これらの変更がパフォーマンスにほとんど影響を与えないことが示されています(表5のように)。
https://scrapbox.io/files/65a4eb94227717002561600c.png
この暫定的な調査結果は、推論プロセスに関わるステップの長さが、質問自体の性質よりも、大規模モデルの推論能力に主に影響を与えることを示唆しています。
5 結論と今後の作業
この研究では、特に複雑な推論タスクの領域において、LLMでのCoTの理解と最適化に重要な貢献をします。GPT-3、GPT-3.5、GPT-4などの大規模言語モデルを用いた自然言語処理におけるCoT技術に関する広範な研究から、重要な洞察が得られました。私たちは、推論チェーンの長さとこれらのモデルのパフォーマンスの間に顕著な相関関係があることを発見しました。興味深いことに、誤解を招く情報を含んでいても、より長い推論チェーンはモデルのパフォーマンスを向上させます。これは、効果的な問題解決において、チェーンの長さがその事実的な正確さよりも重要であることを示唆しています。これらの発見は、複雑なNLPタスクにおける推論の長さの重要性を強調し、CoT戦略の洗練に対して貴重なガイダンスを提供します。
次のステップとして、LLM推論の長いステップと短いステップをexplain-determineを通じて分析することを目指しています。私たちの目的は、より長い推論ステップがより広範な神経的エンゲージメントと相関しているかどうかを確かめることです。これを示すために、長いステップと短いステップの間の活性化パターンを分析するために視覚化技術を使用する予定です。